Entrega Final de curso

Author

Martín Grau Pérez , Lucca Frachelle

Published

December 14, 2024

Resumen de la base

Eventos

El objetivo del presente trabajo es encontrar y modelar los determinantes de éxito de una posesión en el contexto de un partido de fútbol. Para ello, se cuenta con información relativa a los 64 partidos de los mundiales masculino y femenino disputados en Qatar en 2022 y Australia/Nueva Zelanda en 2023, respectivamente. Concretamente, se cuenta con datos de eventing de la consultora especializada StastBomb y se obtuvieron a través de su paquete en R ‘StatsBombR’. Dichos datos de eventing refieren al registro de cada una de las acciones que realizan los jugadores con la pelota en cada uno de los partidos. Dicha base está compuesta por los distintos eventos que se realizaron en el transcurso de cada encuentro y variables asociadas a cada tipo de evento según corresponda (184 variables y 459967 observaciones entre los 2 mundiales). Se considera un evento cada una de las acciones realizadas, ya sea por los jugadores (pases, tiros al arco, atajadas, regates, traslados de balón, etc) así como del resto de los actores de un partido de fútbol (sustituciones, tarjetas, inicio/final de partido, entre otras). Las posesiones están compuestas por varios de estos tipos de acciones. En este caso, la base cuenta con 33 tipos de eventos distintos. Algunos de estas accionesno refieren específicamente a situaciones de juego tales como incios y finales de partidos, sustituciones de jugadores, formaciones iniciales, tarjetas mostradas por el juez, cambios tácticos, sueltas neutrales de balón y pausas en el partido ya sea por lesión u otra situación excepcional. Estos eventos no serán tenidos en cuenta en el análisis ya que se considera que no aportan nada desde el punto de vista del juego y de las posesiones dentro del mismo.

En ese sentido se trabajará con las acciones de juego que involucren la pelota o la disputa de ésta. Mayoritariamente tenemos pases pero también se registran traslados con pelota controlada (Carry), recepción de balón (Ball Receipt), acciones defensivas de presión hacia un rival (Pressure), recuperaciones de pelota (Ball Recovery), duelos (Duel), despejes (Clearance), tiros al arco (Shot), regates (Dribble), atajadas (Goal Keeper), entre otros.

En este contexto se buscará estudiar las distintas secuencias de los equipos en cuanto tienen la posesión a su favor (possession). En ese sentido, tomando en cuenta ambas copas del mundo se cuenta en total con un promedio de un poco más de 177 posesiones por partido para el mundial masculino mientras que un poco menos de 193 para el femenino.

dispersión posesiones y pases por partido según mundial

dispersión posesiones y pases por partido según mundial

Por lo tanto, nuestra observaciones pasarán a ser las posesiones y no los distintos eventos. A estos efectos, con la información contenida en los datos de eventing se conformó una base que nos permite describir cada una de estas secuencias para su posterior estudio y clasificación. Para ello, en una primera instancia, no se trabajará con todas las posesiones sino que por simplicidad nos quedaremos únicamente con aquellas posesiones en las cuales las acciones en las mismas son realizadas por el equipos poseedor del balón o, en su defecto, que las acciones del rival no involucren directamente la pelota: acciones de presión, faltas cometidas o recibidas, atajadas del golero y/o jugadores dribleados del conjunto que está defendiendo (Dribbled Past). De esta manera, la trayectoria de la pelota se ve únicamente afectada por las acciones realizadas por el equipo que tiene la posesión y no por el rival. Nos quedaremos finalmente con 4961 posesiones a nivel masculino y 4409 del mundial femenino para estudiar la trayectoria de la pelota en esas secuencias.

Características de las posesiones

A través de los datos se generará una nueva base que contenga características de las casi 10000 secuencias a estudiar. La elección de dichas características es un tanto arbitraria pero se entiende que pueden ser de valor o utilidad a la hora de describir o encontrar ciertos patrones o estilos de juego:

  • coordenadas de inicio y fin de la posesión (así como las zonas de inicio y fin)

  • cantidad de pases y de traslados de balón (totales y exitosos)

  • cantidad de tiros, de centros, de cambios de frente, de ingresos al área rival con pelota controlado, pases dentro del área y de eventos en general realizados

  • promedio de avance en el terreno según sea por pases o traslados con pelota controlada

  • si la jugada es iniciada por el golero

  • si el golero participa o no de la secuencia

  • si termina en un tiro al arco o en gol

  • velocidad promedio de la posesión teniendo en cuenta los pases y conducciones hacia adelante

  • distancia promedio y mediana de la jugada

  • cantidad de zonas por la que pasa la jugada

  • duración (en segundos) de la posesión

Correlaciones de las caracteristicas de las trayectorias

División en zonas

También podría ser útil tener en consideración no sólo dónde inició y terminó cada jugada sino que también de alguna manera replicar la trayectoria de la pelota en la secuencia. Para ello, se propone dividir la cancha en zonas y analizar hacia dónde el equipo llevó el balón y por cuántos sectores (zonas) del terreno pasó la pelota en la jugada. Cabe aclarar que para el conteo de zonas se tendrá en cuenta únicamente aquellas zonas dónde se realizaron acciones y no necesariamente por dónde pasó la pelota.

División en zonas de la cancha

Idea del modelo

El objetivo del modelo es clasificar las jugadas en exitosas o no exitosas, con un criterio de éxito definido subjetivamente. Para ello, se analizarán distintas características de cada jugada, buscando identificar las variables que permitan predecir con mayor precisión si una jugada será exitosa o no.

Después de la descripción de los datos, se propone la creación de una variable objetivo (a predecir) denominada éxito, que tomará un valor binario para representar el éxito o fracaso de cada jugada.

A continuación, se realizará un análisis exploratorio de datos (EDA) enfocado en esta variable, observando cómo se comporta en función de las características de las jugadas. Este análisis permitirá identificar patrones y relaciones que puedan ser útiles en la clasificación y mejora del rendimiento del modelo.

La variable éxito se define a partir de la categorización de las jugadas:

  • Si la jugada termina en un tiro al arco

  • Si la jugada termina en un córner a favor

  • Si la mayoría de las acciones se realizan bajo presión del rival y pese a ello se logra mantener la posesión

  • Si la secuencia logra llegar hasta el área rival

  • Si la posesión comienza en campo propio y logra llevar al tercio final con al menos 3 acciones

  • Si el rival no logra recuperar la pelota y comete falta

Tanto las trayectorias en las que el rival logra recuperar la pelota así como aquellas que no cumplen ninguna de las 6 condiciones mencionadas se califican como no exitosas (variable exito=0)

Variables a usar

Características de las Variables para el Modelo
Variable Descripción Tipo Rango
possession ID de la posesión Numérica 2:283
tiempo Duración en segs de la jugada Categórica 0:137.71
period Período del partido Numérica 1:4
possession_team.id ID del equipo en posesión Categórica
possession_team.name Nombre del equipo en posesión Categórica
team.name Nombre del equipo Numérica
n Cantidad de acciones de la jugada Numérica 2:146
x_inicio Coordenada X de inicio de la jugada Numérica 0.4:120.5
y_inicio Coordenada Y de inicio de la jugada Numérica 0:79.9
x_fin Coordenada X de fin de la jugada Numérica 0.1:120
y_fin Coordenada Y de fin de la jugada Numérica 0:79.9
n_eventos Número de eventos distintos Numérica 1:11
n_pases Número de pases Numérica 0:51
n_pasesC Número de pases completados Numérica 0:51
n_traslados Número de traslados Numérica 0:38
prom_av_p Promedio de avance por pase realizado Numérica -30.5:104.9
prom_av_t Promedio de avance por traslado realizado Numérica -17.4:56.9
n_jugadores Número de jugadores que participan en la jugada Numérica 1:17
n_centros Cantidad de centros Numérica 0:3
n_cdf Cantidad de cambios de frente Numérica 0:4
n_pases_arearival Número de pases dentro del área rival Binaria 0:3
n_ingresos_arearival Número de ingresos al área rival Categórica 0:2
inicia_golero Si la jugada inicia con el golero Categórica 0: no inicia golero, 1: inicia golero
resultado Estado del marcador al momento de la jugada Categórica 'Empatando', 'Ganando','Perdiendo'
zona_inicio Zona de inicio de la jugada Numérica 1:30
zona_fin Zona de fin de la jugada Numérica 1:30
xG Probabilidad de gol de la jugada (Expected Goal) Numérica 0:0.92805
vel_media_p Velocidad media de los pases Númerica -0.72:1067.5
vel_media_c Velocidad media de los traslados Númerica 0:2275
mundial Mundial al que pertenece el partido Binaria M='Masculino',F='Femenino'
vert_tot Verticalidad total de la posesión Númerica -119.6:116.4
horiz_tot Horizaontalidad total de la posesión Númerica -79.90:79.40
dist.promP Distancia promedio de los pases Númerica 0:108.08
dist.promC Distancia promedio de los trasldos Númerica 0:62.614
dist.medP Distancia mediana de los pases Númerica 0:108.06
dist.medC Distancia mediana de los traslados Númerica 0:62.614
presion Cantidad de acciones que se realizan bajo presión del rival Númerica 0:23
n_eq Cantidad de acciones del equipo que tiene la posesión Númerica 1:142
exito Éxito (o no) de la posesión Binaria 0: no éxito, 1: éxito

EDA

Se observa una dispersión mayor en la diferencia en el eje X en las jugadas exitosas respecto de las no exitosas. Además, se observa que la mayoria de las jugadas exitosas están concentradas en torno al 0, lo cual tiene sentido ya que son dichas secuencias empiezan y terminan en el mismo lugar.

En este caso el comportamiento no es diferente entre las jugadas que son exitosas y las que no.

Se observa que los puntos estan concentrados alrededor de 0,0 lo que implica que la mayoria de las jugas terminan cerca de la posición inicial de la jugada. Lo que llama la atencion es que en las jugadas exitosas, estan mas dispersas en el eje x, teniendo un concentracion mayor en juhagas con diferencias en x mayores a 0. Lo cual indica que estas jugadas se caracerizan por tener un mayor a avance al arco rival.

Aunque en el modelo se quita la variable x_fin para no dar información sobre la posicion final de la jugada, es interesante ver el comportamiento del mismo.

Se observa que, a medida que aumenta la cantidad de tipos distintos de jugadas, tienden a tener una mayor proporción de jugadas exitosas en comparación con las no exitosas. La mayoría de las jugadas se concentran en posiciones iniciales con 4 y 5 tipos distintos de jugadas, seguidas de aquellas con entre 1 y 3 tipos. Por otro lado, las posiciones iniciales con más de 5 tipos distintos presentan la menor concentración de jugadas en general.

En las jugadas exitosas, se observa una mayor concentración de pases con distancias promedio moderadas (20-40) y una verticalidad más dispersa, lo que sugiere que las jugadas exitosas tienden a tener una distancio promedio ne pases menor que en las no exitosas. Aunque tanto las jugadas exitosas como las no exitosas se concentran en verticalidades positivas , esto parece natural con el deporte.

Aunque la mayoría de las jugadas tanto exitosas como no exitosas se concentran cercanas a tiempo 0 , la concentración en 0 es mucho mayor en las jugadas que no exitosas.

Se observa que la mayoría de las jugadas están concentradas en una cantidad relativamente pequeña de jugadas, independientemente de si son exitosas o no. En el rango donde se concentran la mayor cantidad de jugadas (entre 0 y 50), las jugadas exitosas muestran una menor proporción de participación del equipo que tiene la pelota, en comparación con las jugadas no exitosas. Además, se nota que, a medida que aumenta el número de jugadas, la proporción de participación del equipo que tiene la pelota tiende a estabilizarse cerca de 1, particularmente en las jugadas exitosas. Por otro lado, la densidad más alta se encuentra en jugadas con pocas repeticiones, como lo refleja el gradiente de color, indicando que las observaciones más frecuentes corresponden a situaciones menos complejas. Esto sugiere que el éxito de las jugadas podría estar influenciado por un número limitado de interacciones o decisiones rápidas en contextos menos densos de jugadas.

Este punto es muy interesane ya que por un lado mayor variedad de eventos mayor es la proporcion de éxito, sin embargo las jugadas se conentran en poco eventos. Lo que de alguna forma da la pauta que las jugadas exitosas son aquellas que hace de todo un poco en pa cantidad de eventos. Lo que naturalmente hace interesante ver la duración de las jugadas.

En las jugadas exitosas, se observa un incremento constante en el promedio de eventos a medida que aumenta el tiempo, comenzando alrededor de 5 eventos y alcanzando más de 7 en los intervalos de mayor duración. Por otro lado, las jugadas no exitosas tienen un promedio de eventos más bajo, comenzando cerca de 4 y mostrando un aumento más gradual e irregular. Además, la frecuencia de jugadas (representada por el tamaño y color de los puntos) disminuye notablemente conforme el tiempo aumenta, indicando que las jugadas más largas son menos comunes en ambos casos. Estos patrones sugieren que las jugadas exitosas tienden a ser más complejas y dinámicas, involucrando un mayor número de eventos en comparación con las no exitosas.

Hay una relación bastante lineal entre el tiempo de jugada y el número total de eventos.

Aunque los histogramas son similares, no es un detalle menor la moda de la cantidad de pases en la jugada, que es mayor en las secuencias exitosas que en las no exitosas.

Tanto en la cantidad de traslados como en la cantidad de jugadores que participan en la jugada, se observa una mayor concentración de valores cercanos a 0 en las jugadas que no son exitosas.

Modelos

Se proponen 3 modelos distintos para el problema de clasificación de la variable éxito. Un modelo logístico, un Random Forest (RF) y un LightGBM (LGBM). La idea es usar la regresión logística para entender como influyen los distintos factores en la variable éxito sin perder la interpretabilidad de los resultados. Los otros dos se proponen con la idea de predecir dicha variable usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos sobreajuste (RF) mientras que el otro produce un menor error en la validación (LGBM).

Modelos

Se proponenen 4 modelos distintos para el problema de clasificación de la variable exito. Una lasso, un árbol, un random forest y un LightGBM. La idea es usar la lasso para entender como influyen los distintos factores en la variable exito sin perder la interpretabilidad de los resultados. Los otros dos se proponen más con la idea de predecir la variable exito usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos overfitting(random forest) y otro produce menos error en la validación(LightGBM).

Lasso

Se utiliza inicialmente un modelo de regresión logística como primer enfoque debido a su capacidad para proporcionar una interpretación clara y directa de las relaciones entre las variables predictoras y el resultado.

Matriz de Confusion

Arbol de Decisión

Random Forest

Visualización de la evolución de las métricas según los parámetros

Matriz de Confusion

Importancia de las variables

LightGBM

Visualización de la evolución de las métricas según los parámetros

Matriz de Confusion

Comparación de los modelos

Model Performance Metrics
Model Accuracy Sensitivity Specificity ROC AUC
Lasso 0.784 0.745 0.821 0.860
Decision Tree 0.912 0.907 0.916 0.958
Random Forest 1.000 1.000 1.000 1.000
LightGBM 1.000 0.999 1.000 1.000

Datos de testeo

Model Performance Metrics
Model Accuracy Sensitivity Specificity ROC AUC
Lasso 0.779 0.736 0.818 0.854
Decision Tree 0.867 0.844 0.887 0.935
Random Forest 0.896 0.911 0.883 0.956
LightGBM 0.901 0.899 0.903 0.965

Distriubución de posiciones iniciales

Ver donde se equivoca el Random Forest

Errores en el testeo

Interpretabilidad del RandomForest

El Aprendizaje Estadístico Interpretable busca enmarcar los resultados de las predicciones en un contexto de interpretación y comprensión de los mecanismos de dichos valores predichos en función de los predictores. Concretamente, en el presente estudio, se busca estudiar las características y cuales son las variables que puedan estar afectando en algún sentido los valores que nos devuelve el RF analizado. En una primera instancia se busca analizar las relaciones entre las variables predictoras más significativas calculadas en los puntos anteriores a través del Partial Dependence Plot que nos da las predicciones promedio para el rango de valores que toma la variable predictora en la muestra. De esta manera, respecto a la verticalidad y horizontalidad total de las jugadas vemos claramente como a menor verticalidad de la jugada (en valor absoluto), mayor probabilidad de éxito en promedio mientras que a mayor horizontalidad (en valor absoluto) mayor probabilidad de éxito. Si bien en este último caso se cuenta con menor cantidad de observaciones en los extremos de la variable predictora analizada, esto es coherente con el resultado anteriormente mencionado en el sentido que en las jugadas menos verticales, se tiende a arriesgar menos en el sentido de perder la posesión de la pelota. Generalmente, los pases y las conducciones de pelota hacia adelante implican un mayor riesgo de perder la posesión ya que suelen encontrarse mayor cantidad de defensores del equipo rival.

% error por equipo

team.name mundial cant error Ranking
Portugal F 25 1.0000000 21
Norway F 31 0.9677419 12
Korea Republic F 30 0.9666667 17
Sweden F 52 0.9615385 3
Canada F 24 0.9583333 7
Denmark M 24 0.9583333 10
Republic of Ireland F 24 0.9583333 22
Germany F 22 0.9545455 2
Qatar M 22 0.9545455 50
Japan F 58 0.9482759 11
Australia M 19 0.9473684 38
Nigeria F 36 0.9444444 40
Netherlands M 82 0.9390244 8
Argentina F 32 0.9375000 28
Serbia M 32 0.9375000 21
Costa Rica F 29 0.9310345 36
Saudi Arabia M 29 0.9310345 51
Switzerland M 43 0.9302326 15
Zambia F 28 0.9285714 77
Poland M 27 0.9259259 26
Belgium M 25 0.9200000 2
China PR F 25 0.9200000 14
England M 37 0.9189189 5
Portugal M 49 0.9183673 9
Brazil M 48 0.9166667 1
Cameroon M 23 0.9130435 43
France F 46 0.9130435 5
South Korea M 34 0.9117647 28
Croatia M 83 0.9036145 12
France M 62 0.9032258 4
Morocco M 62 0.9032258 22
New Zealand F 31 0.9032258 26
Argentina M 80 0.9000000 3
Germany M 30 0.9000000 11
Mexico M 30 0.9000000 13
United States M 40 0.9000000 16
Switzerland F 29 0.8965517 20
Uruguay M 19 0.8947368 14
Spain F 65 0.8923077 6
Canada M 27 0.8888889 41
Senegal M 36 0.8888889 18
Wales M 36 0.8888889 19
Jamaica F 34 0.8823529 43
Philippines F 17 0.8823529 46
Ghana M 25 0.8800000 61
Morocco F 40 0.8750000 72
United States F 40 0.8750000 1
Colombia F 38 0.8684211 25
Haiti F 29 0.8620690 53
Australia F 57 0.8596491 10
England F 64 0.8593750 4
Japan M 35 0.8571429 24
Panama F 33 0.8484848 52
Spain M 42 0.8333333 7
Tunisia M 30 0.8333333 30
Vietnam F 30 0.8333333 32
Ecuador M 29 0.8275862 44
Italy F 23 0.8260870 16
South Africa F 38 0.8157895 54
Costa Rica M 37 0.8108108 31
Netherlands F 36 0.8055556 9
Denmark F 28 0.7857143 13
Iran M 29 0.7586207 20
Brazil F 23 0.7391304 8

Modelos por mundial

Visualización de la evolución de las métricas según los parámetros

Matriz de Confusion

Importancia de las variables